iT邦幫忙

2024 iThome 鐵人賽

DAY 6
0
AI/ ML & Data

Web仔也來學ML系列 第 6

Web仔也來學ML [Day 6] - 資料的格式在數學上的表達

  • 分享至 

  • xImage
  •  

輸入

我們知道監督式學習,就是要准備一個Data set,這個Data set裏面的每一筆資料都會有輸入的特徵和相對應的輸出的label。在數學上的定義爲有m種特徵的實數向量的有限集合,也就是:
X = {x̄_1, x̄_2, ... , x̄_n}, x̄ ∈ ℝ^m

然而在機器學習領域中,很多元素都存在隨機性,如數據採樣、模型初始化、優化算法、正則化等。

  • 數據採樣:
    Data Set通常非常龐大,可能無法一次性全部處理,因此,我們會隨機抽取一部分數據進行訓練,這稱為隨機採樣。又或者説,有時我們收集到資料也是從現實世界中隨機采樣而來。
    不同的隨機採樣會導致模型學到略有不同的特徵,從而影響模型的最終表現。

因爲有了隨機性,因此我們需要在意在一個多變量分佈D之中取出的每一個x,我們希望所有的樣本都是獨立同分布的(i.i.d),所以這代表對於所有的x̄而言,他們都屬於同一個分佈D,且考慮一個有m個value的任意子集:
P(x̄_1, x̄_2, ... , x̄_m) = \prod_{i=1}^{m} P(x̄_i)

輸出

如果這個Data set的資料對應到的輸出是一個數值,我們稱這個程序叫做迴歸
Y = {y_1, y_2, ... , y_n}, y_n ∈ (0,1) or y_n ∈ ℝ+

如果這個Data set的資料對應到的輸出是類別,我們稱這個程序叫做分類
Y = {y_1, y_2, ... , y_i}, y_i ∈ {0,1} or y_i ∈ {foods, toys, books, furnitures}

如果它們内部采用參數向量來決定實際實例y,則成爲參數學習:
y = r(x̄, θ) or y = c(x̄, θ)

今天第一次嘗試用打字打出式子(而不是截圖),找各種符號花了一點額外的時間,因此内容會比較少,但都是基本且重要的觀念。


上一篇
Web仔也來學ML [Day 5] - 常見名詞解釋(一)
下一篇
Web仔也來學ML [Day 7] - 常見名詞解釋(二)
系列文
Web仔也來學ML30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言